Masked Image Modelling (MIM) has been shown to be an efficient self-supervised learning (SSL) pre-training paradigm when paired with transformer architectures and in the presence of a large amount of unlabelled natural images. The combination of the difficulties in accessing and obtaining large amounts of labeled data and the availability of unlabelled data in the medical imaging domain makes MIM an interesting approach to advance deep learning (DL) applications based on 3D medical imaging data. Nevertheless, SSL and, in particular, MIM applications with medical imaging data are rather scarce and there is still uncertainty. around the potential of such a learning paradigm in the medical domain. We study MIM in the context of Prostate Cancer (PCa) lesion classification with T2 weighted (T2w) axial magnetic resonance imaging (MRI) data. In particular, we explore the effect of using MIM when coupled with convolutional neural networks (CNNs) under different conditions such as different masking strategies, obtaining better results in terms of AUC than other pre-training strategies like ImageNet weight initialization.
translated by 谷歌翻译
多实例学习(MIL)是一种弱监督的学习,其中,具有未知标签的多个数据实例被分类为袋子。由于关于各个实例的知识不完整,因此将标签分配给包含该实例的袋子。虽然该方法适合不同的应用程序被标记为数据稀缺,但是缺乏求解更复杂的场景的深度,其中必须进行一组实例之间的关联,例如在一组时间序列中找到图像或检测事件的相关区域信号。嵌套MIL认为袋中有标记的袋子,其中只有最外侧袋被标记,内部袋子和实例表示为潜在标签。此外,我们提出了使用注意机制来增加解释性,从而提高对每个实例的影响到弱袋标签。古典图像数据集中的实验表明,我们的提出模型提供了高精度的性能以及在图像区域上发现相关实例。
translated by 谷歌翻译
自然语言和生物学序列之间的明显相似之处已导致最新的深层语言模型(LMS)在抗体和其他生物学序列分析中的应用激增。但是,缺乏对生物序列语言的严格语言形式化,这些语言将定义基本组成部分,例如词典(即语言的离散单元)和语法(即,将序列序列良好的规则,结构和结构和结构和结构和结构链接的规则链接在一起含义)导致了LMS的主要域无规定应用,这些应用未考虑研究的生物序列的基础结构。另一方面,语言形式化为LM应用建立了语言信息,因此适应域的组件。它将有助于更好地理解自然语言和生物序列之间的差异和相似性如何影响LMS的质量,这对于具有可解释的模型具有可解释的模型至关重要。解密抗体特异性规则对于加速有理和硅生物治疗药物设计至关重要。在这里,我们将抗体语言的特性形式化,因此不仅建立了语言工具在适应性免疫受体分析中应用的基础,而且还为免疫受体特异性的系统免疫语言学研究提供了基础。
translated by 谷歌翻译
数十年来,源自人类活动的海洋碎片一直在海洋,湖泊和河流等水下环境中积累。由于无法理解散布的确切机制,因此难以评估废物的程度,类型和数量,从而对海洋环境和人类健康产生了未知的后果。因此,用于检测和映射海洋碎片的方法对于洞悉污染动力学至关重要,而污染动态又可以用来有效地计划和执行物理去除。使用配备了水下高光谱成像仪(UHI)和立体声相机的自动驾驶水下车辆(AUV),在挪威卑尔根贝尔根的庇护海湾商店Lungegaardsvann中自主检测,映射和量化了海洋碎片。
translated by 谷歌翻译
基于神经网络的深层语言模型(LMS)越来越多地应用于大规模蛋白质序列数据以预测蛋白质功能。然而,作为黑框模型,当前的蛋白质LM方法并不促进对序列功能映射的基本理解,而阻碍了基于规则的生物治疗药物开发,因此目前的蛋白质LM方法不大。我们认为,从语言学中得出的指导是从自然语言数据中提取分析规则的领域,可以帮助构建学习相关领域特定规则的更容易解释的蛋白质LM。与自然语言LMS相比,蛋白质序列数据和语言序列数据之间的差异需要在蛋白质LMS中集成更多的域特异性知识。在这里,我们为培训数据,令牌化,令牌嵌入,序列嵌入和模型解释提供了基于语言学的路线图。将语言学与蛋白质LMS结合起来,可以发展下一代可解释的机器学习模型,并有可能发现序列功能关系基础的生物学机制。
translated by 谷歌翻译
机器学习方法实现文本识别的高精度,因此越来越多地用于手写历史来源的转录。然而,在生产中使用机器学习需要简化的端到端管道,该流程将扩展到数据集大小和模型,该模型具有几个手动转录的高精度。还必须验证模型结果的正确性。本文介绍了我们的经验教训,从挪威1950年人口普查中译码了开发,调整和使用互联端到端机器学习管道。我们为自动转录的代码达到97%的准确性,我们向3%的码发送了手动验证。我们核实我们的结果中发现的职业码分布与我们的培训数据中发现的分布相匹配,这应该是整个人口普查的代表。我们相信我们的方法和经验教训可能对计划在生产中使用机器学习的其他转录项目有用。源代码可用于:https://github.com/uit-hdl/rhd-codes
translated by 谷歌翻译